Adjusted R-squared

AI
qwen-3-235b-a22b-instruct-2507
작성자
익명
작성일
2025.09.16
조회수
2
버전
v1

Adjusted R-s

개요Adjusted R-squared수정된 결정계수)는귀분석에서 모의 적합도를 평가하는 지표 중 하나로, 일반적인 R-squared(결계수)의계를 보완하기 위해 제안된 통계량이다. R-squared 독립변수들이 종속변수를 잘 설명하는지를 나타내는 값이지만, 독립변수를 추가할수록 무조건 증가하는 성향이 있어 모델의 과적합(overfitting) 문제를 유발할 수 있다. 이를 해결하기 위해 Adjusted R-squared**는 변수의 수를 고려하여 보정된 결정계수를 제공한다.

이 문서에서는 Adjusted R-squared의 정의, 계산 방법, 사용 목적, 장단점, 그리고 실제 적용 사례까지 다루어 통계학적 이해를 돕고자 한다.


R-squared의 한계

R-squared란?

R-squared는 회귀모형이 관측된 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 0에서 1 사이의 값을 가진다. 값이 1에 가까울수록 모델이 종속변수의 변동을 잘 설명한다는 의미이다. 수식은 다음과 같다:

[ R^2 = 1 - \frac{\text{잔차제곱합 (SSE)}}{\text{총제곱합 (SST)}} ]

여기서: - SSE(Sum of Squared Errors): 관측값과 예측값의 차이를 제곱한 합 - SST(Total Sum of Squares): 관측값과 전체 평균의 차이를 제곱한 합

문제점: 변수 추가 시 R-squared의 증가

R-squared는 새로운 독립변수를 추가할 때, 그 변수가 유의미하든 아니든 간에 항상 같거나 증가한다. 이는 다음과 같은 문제를 야기한다: - 모델에 불필요한 변수를 추가해도 성능이 좋아진 것처럼 보임 - 과적합 위험 증가 - 모델의 일반화 능력 저하

예를 들어, 무작위로 생성된 변수를 회귀모델에 추가해도 R-squared는 소폭 증가할 수 있다. 이는 모델 선택 시 잘못된 판단을 유도할 수 있다.


Adjusted R-squared의 정의와 계산

정의

Adjusted R-squared는 독립변수의 수를 고려하여 R-squared 값을 조정한 지표이다. 변수를 추가할 때 모델의 설명력이 실질적으로 향상되는지를 판단할 수 있도록 도와준다.

계산 공식

[ \text{Adjusted } R^2 = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - k - 1} \right) ]

여기서: - ( R^2 ): 결정계수 - ( n ): 관측치의 수 (표본 크기) - ( k ): 독립변수의 수 (상수항 제외)

해석

  • Adjusted R-squared는 R-squared보다 작거나 같음
  • 변수를 추가했을 때 모델의 설명력 향상이 변수 수 증가의 패널티를 상쇄하지 못하면 Adjusted R-squared는 감소
  • 따라서 Adjusted R-squared가 높을수록 보다 효율적인 모델임을 의미

Adjusted R-squared의 사용 목적

모델 선택 기준

다수의 회귀모델 중 최적의 모델을 선택할 때, Adjusted R-squared는 중요한 기준이 된다. 예를 들어: - 변수 A만 포함한 모델: Adjusted R² = 0.65 - 변수 A, B 포함한 모델: Adjusted R² = 0.68 - 변수 A, B, C 포함한 모델: Adjusted R² = 0.67

이 경우, 변수 C를 추가하면 R-squared는 증가할 수 있지만 Adjusted R-squared는 감소하므로, C를 포함한 모델은 비효율적이라고 판단할 수 있다.

과적합 방지

불필요한 변수를 추가해도 Adjusted R-squared는 감소하거나 정체되므로, 모델의 복잡도를 적절히 제어하는 데 유용하다.


장점과 한계

장점

  • 변수 수에 대한 보정: R-squared보다 모델 비교에 더 적합
  • 모델 단순성 장려: 설명력 향상이 충분하지 않으면 변수 추가를 억제
  • 다중회귀분석에 필수적: 변수가 많은 경우 모델 선택의 핵심 지표

한계

  • 음수가 될 수 있음: 모델이 평균보다 못한 설명력을 가질 경우
  • 절대적인 기준이 아님: 다른 지표(AIC, BIC, 교차검증 등)와 함께 사용해야 함
  • 비선형성이나 비정규성 문제 해결 불가: 모델 가정 위반 시 여전히 신뢰할 수 없음

실용적 예시

다음은 Python의 [statsmodels](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/[Python](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/Python/Python)/statsmodels) 라이브러리를 사용해 Adjusted R-squared를 계산하는 예시이다:

import statsmodels.api as sm
import numpy as np
import pandas as pd

# 예시 데이터 생성
np.random.seed(42)
X = np.random.rand(100, 3)  # 독립변수 3개
y = 2*X[:,0] + 3*X[:,1] + np.random.normal(0, 0.1, 100)  # 종속변수

# 상수항 추가
X = sm.add_constant(X)

# 회귀 모델 적합
model = sm.OLS(y, X).fit()
print(model.summary())
`

출력 결과에서 다음과 같은 항목을 확인할 수 있다:
R-squared: 0.987 Adj. R-squared: 0.986 ```

Adjusted R-squared가 R-squared보다 약간 낮지만 여전히 높은 값이므로, 모델이 변수 수를 고려하더라도 높은 설명력을 유지함을 알 수 있다.


관련 지표 비교

지표 설명 장점 단점
R-squared 설명된 변동의 비율 직관적, 널리 사용 변수 추가 시 항상 증가
Adjusted R-squared 변수 수 보정된 R² 모델 비교에 적합 음수 가능, 절대적 기준 아님
AIC / BIC 정보 기반 기준 과적합 방지, 모델 선택에 강력 해석이 직관적이지 않음
교차검증 예측 성능 평가 실제 예측력 반영 계산 비용 높음

참고 자료 및 관련 문서

  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to Linear Regression Analysis. Wiley.
  • James, G., et al. (2013). An Introduction to Statistical Learning. Springer.
  • 관련 문서: R-squared, 다중회귀분석, AIC

Adjusted R-squared는 회귀분석에서 모델의 효율성과 일반화 능력을 평가하는 데 핵심적인 역할을 하며, 특히 변수 선택 과정에서 반드시 고려되어야 할 지표이다. 단독으로 사용하기보다는 다른 통계 지표와 함께 종합적으로 판단하는 것이 바람직하다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

이 AI 생성 콘텐츠가 도움이 되었나요?